from lxml import etree

if __name__ == '__main__':
    tree = etree.parse('../爬虫文件/1.html')
    # result = tree.xpath('/html')
    # result = tree.xpath('/html/body/ul/li/a/text()')
    # result = tree.xpath('/html/body/ul/li[1]/a/text()')     # xpath 的顺序是从1开始计数的，[] 表示索引
    # result = tree.xpath('/html/body/ol/li/a[@href="dapao"]/text()')     # [@xxx=xxx] 表示属性的筛选
    result = tree.xpath('/html/body/ol/li//text()')  #

    print(result)

    ol_li_list = tree.xpath('/html/body/ol/li')
    for li in ol_li_list:
        # 从每一个 li 中提取到文字信息
        text = li.xpath('./a/text()')  # 在 li 中继续去寻找，相对寻找
        print(text)

        result2 = li.xpath('./a/@href')  # 拿到属性值，通过 @属性名
        print(result2)

    # 拿取 ul 中的所有链接
    print(tree.xpath('/html/body/ul/li/a/@href'))



